字节跳动账户被 OpenAI 封禁，泄露了国产大模型训练的又一潜规则

Original 真知浩见真知浩见

2024-09-14

据国外媒体 the verge 报道，字节跳动秘密使用 OpenAI 的账户来训练与 OpenAI 有竞争关系的大模型，其 api 账号遭到封禁。

OpenAI 发言人 Niko Felix 确认了对字节跳动账户的暂停，并表示所有API客户都必须遵守他们的使用政策，以确保其技术用于良好目的。尽管字节跳动很少使用OpenAI的API，而主要是通过微软的Azure 平台进行，但他们在进一步调查期间暂停了其账户。

字节跳动也做出了回应，他们确实在项目的早期使用了GPT来注释模型，但这些数据已经在年中左右的时候从其训练数据中删除。字节跳动的国外发言人强调，字节跳动获得了微软的许可使用GPT API，并仅将其用于非中国市场的产品和功能。同时，他们表示字节跳动在9月进行了内部检查并采取了进一步规范措施，以确保严格遵守相关服务的使用条款。

很多科技媒体报道了这个事情，但没有进一步说明，为什么字节跳动会这么做。

其实，这也基本是国内大模型训练的一个潜规则，就是利用 OpenAI 生成的对话数据，再基于 Meta 开源的 Llama，来做自己的大模型。要不然，之前完全没有积累的国内公司，怎么突然创造出了这么多的大模型呢..

我们来看大模型训练的步骤：

1. 数据收集与预处理：这是一个关键阶段，涉及到收集和准备用于训练模型的数据。使用OpenAI生成的数据来训练自己的模型，就是在这一阶段进行的。在这个阶段，数据被收集、清洗、标注并预处理以适应模型训练的需要。
2. 模型训练：在这一阶段，使用准备好的数据来训练模型。这个过程可能涉及到参数调整、优化算法的选择等。
3. 模型评估与调优：训练完成后，模型需要在验证集上进行评估，以测试其性能。根据评估结果，可能需要对模型进行调优。
4. 模型部署与应用：一旦模型性能达到满意的水平，它就可以被部署到实际应用中。
5. 模型维护与迭代：模型在实际应用中会持续收集新数据，可能需要定期进行重新训练或调整以适应新的数据和需求。

数据的收集与预处理的工作量非常大，而且之前也有论文表明，用 OpenAI 生成的对话数据质量很高，完全可以用来做模型训练。那用 OpenAI 的能力来生成训练数据这种效率高、质量也高的事情，自然就被采用了。

但这些动作很明显违反了 OpenAI 的相关政策。OpenAI对其模型、工具和服务的所有用户都设定了特定的使用政策。这些政策旨在确保技术的安全和负责任的使用。这些政策涵盖了广泛的禁止活动范围，包括非法活动、生成有害或仇恨内容、各行业中的高风险活动以及侵犯隐私等。

在隐私和数据所有权方面，OpenAI强调他们不会使用来自ChatGPT企业版或其API的数据来训练他们的模型。用户保留对其数据的所有权和控制权。对于微调模型，OpenAI允许用户使用自己的提示-完成对来调整特定任务的某些模型。这些微调模型和用于此目的的数据仅限于用户使用，不会与其他人共享或用于训练其他OpenAI模型。

此外，OpenAI的平台政策允许将其API集成到各种产品中，但需遵守其使用政策中提到的限制。这意味着虽然你可以在广泛的应用程序中使用OpenAI的模型和API，但任何通过OpenAI的服务生成或获取的数据的使用都必须遵守他们的政策。

这次事件也暴露了国际AI界的竞争态势，尤其是在大模型这一前沿技术领域。在全球范围内，AI 大模型的发展日益成为科技巨头之间竞争的重点，而中国作为科技崛起的重要力量，自然也不会缺席这场科技革命。OpenA I暂停字节跳动账户事件，不仅是单个公司间的纠纷，也折射出了全球AI领域中存在的合作与竞争的复杂格局。

素材来源官方媒体/网络新闻

继续滑动看下一个

真知浩见

向上滑动看下一个

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

字节跳动账户被 OpenAI 封禁，泄露了国产大模型训练的又一潜规则

您可能也对以下帖子感兴趣

“占坑式辩护”，侵犯了谁？

bxrf的瓜

嗷嗷哭！三斤午夜痛哭，压力太大了！阿哲遭恶意举报，爆瓜内幕！

童锦程爆阿哲抖音年度！哦嫂猫猫抖音复出开播！北王示爱囧囧丸！

陈泽心疼阿哲，回应大舞台节奏！哲修辰杭州聚会！宇文泡1600万叫价青蛙哥！

生成图片，分享到微信朋友圈

字节跳动账户被 OpenAI 封禁，泄露了国产大模型训练的又一潜规则

您可能也对以下帖子感兴趣